arxiv：2503.09277V1 [CS.CV] 2025年3月12日__

arxiv：2503.09277V1 [CS.CV] 2025年3月12日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2503.09277V1 [CS.CV] 2025年3月12日

¥ 1.0

热度

随着基于扩散的[12，41]文本到图像生成技术的进步，一系列单条件可控的生成框架（例如ControlNet [58]，T2-IADAPTER [30]，IP-ADAPTER [57]和INSTANTID [46]和INTSTANTID [46]已经扩展了控制信号的范围，该框架已扩展了从字体提示中扩展了控制信号的范围。它允许用户控制生成的图像的更详尽的方面，例如布局，样式，特征等。这些常规方法是专门为UNET [37]主骨的主干（LDM）[36]设计的，具有专用的控制网络。此外，最近的一些方法，例如Imini-Control [44]，将控制信号集成到扩散变压器（DIT）[7，22]体系结构中，它们与LDM中的UNET相比表现出了出色的性能。尽管上述方法达到了有希望的单条件性能，但多条件可控生成的挑战仍未解决。以前的多条件生成方法（例如Uni-Control [34]和Unicontrolnet [59]通常依赖于处理诸如Chany或Depth Maps之类的空间条件，并且无法适应受试者条件，从而导致适用的情况有限。尽管最近提出的CTRL-X [26]具有控制结构和外观，但其性能并不令人满意，并且仅支持有限的条件组合。因此，统一框架需要以多条件生成的方式包含这些生成任务。通过集成多个pre-此外，我们假设许多现有的生成任务可以被视为多条件的一代，例如虚拟试验[5，16]，对象插入[3，50]，样式传输[14，32，51]，空间分配的自定义[19，20，24，26]等该框架应确保与所有输入约束的一致性，包括主题ID保存，空间结构对齐，背景连贯性和样式均匀性。为了实现这一目标，我们提出了Unicombine，这是一个提供多个关键范围的能力和通用框架：首先，我们的框架能够同时处理任何条件组合，包括但不限于文本提示，空间图和下图图像。具体来说，我们引入了一种新颖的条件MMDIT注意机制，并结合了可训练的DeNoisis-Lora模块，以构建无训练和基于培训的版本。

添加pdf代下载 VIP点击下载文件

arxiv：2503.09277V1 [CS.CV] 2025年3月12日

主要关键词

信号的适用的控制网体系结构条件扩散的包括以前的信号 LDM 输入例如控制信号空间结构常规方法详尽的 26 虚拟试验分配的一致性可控的可训练的空间希望的技术的设计的提出的一系列范围出色的样式框架训练的空间条件变压器控制结构控制生成有限的 UNET 方法专用的连贯性 Control 均匀性最近的现有的图像生成空间图 46

arxiv：2503.09277V1 [CS.CV] 2025年3月12日PDF文件第1页